Data Balancing with Synthetic Medical Data Generation
نویسندگان
چکیده
Sağlık hizmetleri planlaması, klinik deneyler ve araştırma geliştirme çalışmaları gibi sağlık verisi kullanımını gerektiren alanlarda, kişisel verisinin elde edilmesi kullanımında etik, bürokratik operasyonel zorluklar yaşanmaktadır. Elektronik kayıtlarının güvenliği veri mahremiyeti konularındaki kısıtlamalar başta olmak üzere, saha çalışmalarından edilmesinin maliyetli zaman alıcı olması, gerçek veriye en yakın şekilde yapay üretilmesini gerekli kılmaktadır. Bu çalışmada, son dönemde alanında artan kullanımı ihtiyacı doğrultusunda, sentetik kullanımının önemi ele alınarak, üretiminde kullanılan SMOTE, SMOTEENN, BorderlineSMOTE, SMOTETomek ADASYN yöntemlerinin performanslarının karşılaştırılması amaçlanmıştır. Çalışmada, gözlem sınıf sayısı birbirinden farklı ikisi de kamuya açık, 390 hastaya ait 15 değişkenden oluşan seti ile 19.212 COVID-19 hastasına ilişkin 16 kullanılmıştır. Çalışma sonucunda SMOTE tekniğinin sayısının fazla olduğu setini dengelemede daha başarılı hibrit tekniklere göre etkin olarak kullanılabileceği sonucuna ulaşılmıştır.
منابع مشابه
Synthetic Data Generation using Benerator Tool
Datasets of different characteristics are needed by the research community for experimental purposes. However, real data may be difficult to obtain due to privacy concerns. Moreover, real data may not meet specific characteristics which are needed to verify new approaches under certain conditions. Given these limitations, the use of synthetic data is a viable alternative to complement the real ...
متن کاملQuality Estimation for Synthetic Parallel Data Generation
This paper presents a novel approach for parallel data generation using machine translation and quality estimation. Our study focuses on pivot-based machine translation from English to Croatian through Slovene. We generate an English–Croatian version of the Europarl parallel corpus based on the English–Slovene Europarl corpus and the Apertium rule-based translation system for Slovene–Croatian. ...
متن کاملDeclarative generation of synthetic XML data
Synthetic data can be extremely useful in testing and evaluating algorithms, tools and systems. Most synthetic data generators available today are the result of individual benchmarking efforts. Typically, these are complex programs in which the specifications of both the structure and the contents of the data are hard-coded. As a result, it is often difficult to customize these tools for produc...
متن کاملScalable , Synthetic , Sensor Network Data Generation
of the Dissertation Scalable, Synthetic, Sensor Network Data Generation
متن کاملHead Motion Generation with Synthetic Speech: A Data Driven Approach
To have believable head movements for conversational agents (CAs), the natural coupling between speech and head movements needs to be preserved, even when the CA uses synthetic speech. To incorporate the relation between speech head movements, studies have learned these couplings from real recordings, where speech is used to derive head movements. However, relying on recorded speech for every s...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ژورنال
عنوان ژورنال: ?statistik ve Uygulamal? Bilimler Dergisi
سال: 2022
ISSN: ['2718-0999']
DOI: https://doi.org/10.52693/jsas.1105599